安全是自主系统的关键组成部分,仍然是现实世界中要使用的基于学习的政策的挑战。特别是,由于不安全的行为,使用强化学习学习的政策通常无法推广到新的环境。在本文中,我们提出了SIM到LAB到实验室,以弥合现实差距,并提供概率保证的安全意见政策分配。为了提高安全性,我们采用双重政策设置,其中通过累积任务奖励对绩效政策进行培训,并通过根据汉密尔顿 - 雅各布(Hamilton-Jacobi)(HJ)达到可达性分析来培训备用(安全)政策。在SIM到LAB转移中,我们采用监督控制方案来掩盖探索过程中不安全的行动;在实验室到实验室的转移中,我们利用大约正确的(PAC) - 贝斯框架来提供有关在看不见环境中政策的预期性能和安全性的下限。此外,从HJ可达性分析继承,界限说明了每个环境中最坏情况安全性的期望。我们从经验上研究了两种类型的室内环境中的自我视频导航框架,具有不同程度的光真实性。我们还通过具有四足机器人的真实室内空间中的硬件实验来证明强大的概括性能。有关补充材料,请参见https://sites.google.com/princeton.edu/sim-to-lab-to-real。
translated by 谷歌翻译
Reach-避免最佳控制问题,其中系统必须在保持某些目标条件的同时保持清晰的不可接受的故障模式,是自主机器人系统的安全和活力保证的核心,但它们的确切解决方案是复杂的动态和环境的难以解决。最近的钢筋学习方法的成功与绩效目标大致解决最佳控制问题,使其应用​​于认证问题有吸引力;然而,加固学习中使用的拉格朗日型客观不适合编码时间逻辑要求。最近的工作表明,在将加强学习机械扩展到安全型问题时,其目标不是总和,但随着时间的推移最小(或最大)。在这项工作中,我们概括了加强学习制定,以处理覆盖范围的所有最佳控制问题。我们推出了一个时间折扣 - 避免了收缩映射属性的贝尔曼备份,并证明了所得达到避免Q学习算法在类似条件下会聚到传统的拉格朗郎类型问题,从而避免任意紧凑的保守近似值放。我们进一步证明了这种配方利用深度加强学习方法,通过将近似解决方案视为模型预测监督控制框架中的不受信任的oracles来保持零违规保证。我们评估我们在一系列非线性系统上的提出框架,验证了对分析和数值解决方案的结果,并通过Monte Carlo仿真在以前的棘手问题中。我们的结果为一系列基于学习的自治行为开放了大门,具有机器人和自动化的应用。有关代码和补充材料,请参阅https://github.com/saferoboticslab/safett_rl。
translated by 谷歌翻译
安全关键型应用程序要求控制器/政策能够保证安全高度信心。如果我们可以访问地面真实的系统动态,控制屏障功能是一种有用的工具,可以保证安全。在实践中,我们对系统动态的知识不准确,这可能导致不安全的行为导致的残余动力学。使用确定性机器学习模型学习剩余动态可以防止不安全的行为,但是当预测不完美时可能会失败。在这种情况下,概率学习方法,其预测的不确定性的原因可以有助于提供强大的安全利润。在这项工作中,我们使用高斯过程来模拟残余动力学的投影到控制屏障功能上。我们提出了一种新颖的优化程序,以产生安全控制,可以保证具有高概率的安全性。安全滤波器具有推理来自GP预测的不确定性的能力。我们通过SEGWAY和四轮车模拟的实验展示了这种方法的功效。与具有神经网络的确定性方法相比,我们所提出的概率方法能够显着降低安全违规的数量。
translated by 谷歌翻译
我们研究了覆盖的阶段 - 避免多个代理的动态游戏,其中多个代理相互作用,并且每种希望满足不同的目标条件,同时避免失败状态。 Reach-避免游戏通常用于表达移动机器人运动计划中发现的安全关键最优控制问题。虽然这些运动计划问题存在各种方法,但我们专注于找到时间一致的解决方案,其中计划未来的运动仍然是最佳的,尽管先前的次优行动。虽然摘要,时间一致性封装了一个非常理想的财产:即使机器人早期从计划发出的机器人的运动发散,即,由于例如内在的动态不确定性或外在环境干扰,即使机器人的运动分歧,时间一致的运动计划也保持最佳。我们的主要贡献是一种计算 - 避免多种代理的算法算法,避免呈现时间一致的解决方案。我们展示了我们在两位和三位玩家模拟驾驶场景中的方法,其中我们的方法为所有代理商提供了安全控制策略。
translated by 谷歌翻译
The deployment of robots in uncontrolled environments requires them to operate robustly under previously unseen scenarios, like irregular terrain and wind conditions. Unfortunately, while rigorous safety frameworks from robust optimal control theory scale poorly to high-dimensional nonlinear dynamics, control policies computed by more tractable "deep" methods lack guarantees and tend to exhibit little robustness to uncertain operating conditions. This work introduces a novel approach enabling scalable synthesis of robust safety-preserving controllers for robotic systems with general nonlinear dynamics subject to bounded modeling error by combining game-theoretic safety analysis with adversarial reinforcement learning in simulation. Following a soft actor-critic scheme, a safety-seeking fallback policy is co-trained with an adversarial "disturbance" agent that aims to invoke the worst-case realization of model error and training-to-deployment discrepancy allowed by the designer's uncertainty. While the learned control policy does not intrinsically guarantee safety, it is used to construct a real-time safety filter (or shield) with robust safety guarantees based on forward reachability rollouts. This shield can be used in conjunction with a safety-agnostic control policy, precluding any task-driven actions that could result in loss of safety. We evaluate our learning-based safety approach in a 5D race car simulator, compare the learned safety policy to the numerically obtained optimal solution, and empirically validate the robust safety guarantee of our proposed safety shield against worst-case model discrepancy.
translated by 谷歌翻译
能够分析和量化人体或行为特征的系统(称为生物识别系统)正在使用和应用变异性增长。由于其从手工制作的功能和传统的机器学习转变为深度学习和自动特征提取,因此生物识别系统的性能增加到了出色的价值。尽管如此,这种快速进步的成本仍然尚不清楚。由于其不透明度,深层神经网络很难理解和分析,因此,由错误动机动机动机的隐藏能力或决定是潜在的风险。研究人员已经开始将注意力集中在理解深度神经网络及其预测的解释上。在本文中,我们根据47篇论文的研究提供了可解释生物识别技术的当前状态,并全面讨论了该领域的发展方向。
translated by 谷歌翻译
变形攻击是不断影响深度识别系统的众多威胁之一。它包括从不同个体中选择两张面,并将它们融合到包含两者的身份信息的最终图像中。在这项工作中,我们提出了一个新颖的正规化术语,该术语考虑了两者中存在的身份信息,并促进了两个正交潜在媒介的创建。我们在FRLL数据集中评估了我们提出的方法(Orthomad),并在五个不同的数据集中培训时评估了模型的性能。我们以小的RESNET-18为骨干,我们实现了大多数实验的最新结果,而竞争性则在其他实验中结果。本文的代码将公开可用。
translated by 谷歌翻译
本文介绍了基于2022年国际生物识别技术联合会议(IJCB 2022)举行的基于隐私感知合成训练数据(SYN-MAD)的面部变形攻击检测的摘要。该竞赛吸引了来自学术界和行业的12个参与团队,并在11个不同的国家 /地区举行。最后,参与团队提交了七个有效的意见书,并由组织者进行评估。竞争是为了介绍和吸引解决方案的解决方案,这些解决方案涉及检测面部变形攻击的同时,同时出于道德和法律原因保护人们的隐私。为了确保这一点,培训数据仅限于组织者提供的合成数据。提交的解决方案提出了创新,导致在许多实验环境中表现优于所考虑的基线。评估基准现在可在以下网址获得:https://github.com/marcohuber/syn-mad-2022。
translated by 谷歌翻译
这项工作总结了2022年2022年国际生物识别联合会议(IJCB 2022)的IJCB被遮挡的面部识别竞赛(IJCB-OCFR-2022)。OCFR-2022从学术界吸引了总共3支参与的团队。最终,提交了六个有效的意见书,然后由组织者评估。在严重的面部阻塞面前,举行了竞争是为了应对面部识别的挑战。参与者可以自由使用任何培训数据,并且通过使用众所周知的数据集构成面部图像的部分来构建测试数据。提交的解决方案提出了创新,并以所考虑的基线表现出色。这项竞争的主要输出是具有挑战性,现实,多样化且公开可用的遮挡面部识别基准,并具有明确的评估协议。
translated by 谷歌翻译
出现集合随机滤清器(ERFF)作为逆建模的替代品的替代卡尔曼滤波器(ENKF)。 ENKF是一种数据同化方法,随着观察结果的收集,可以依次依次估算参数估计参数。更新步骤是基于从实现集合中计算出的实验协方差,并将更新作为线性组合,是观测值和预测的系统状态值之间差异的线性组合。 ERFF用随机森林表示的非线性函数代替更新步骤中的线性组合。这样,可以捕获要更新的参数与观察值之间的非线性关系,并产生更好的更新。在许多方案中,有不同程度的异质性(对数电导率变异从1到6.25(ln m/d)2),在许多方案中,证明了ERFF的对数指导性识别的目的。合奏(50或100),以及打击头观测的数量(18或36)。在所有情况下,ERFF效果很好,能够重建对数传导性空间异质性,同时匹配所选控制点处观察到的压电头。为了进行基准测试,将ERFF与重新启动ENKF进行了比较,以发现ERFF在使用的集合实现的数量(在典型的ENKF应用中很小)中优于ENKF。只有当实现的数量增加到500时,重新启动ENKF才能匹配ERFF的性能,尽管计算成本三倍。
translated by 谷歌翻译